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基于 笔画 角度 变换 和 宽度 特征 的 自然 场景 文本 检测 
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摘 要 : 针对 光照 不 均 和 背景 复杂 度 所 导致 的 自然 场景 文本 检测 中 文本 的 漏 检 和 错 检 现 象 ， 提 出 一 种 基于 笔画 角度 变 

换 和 宽度 特征 的 自然 场景 文本 检测 方法 。 分 析 发 现 与 非 文本 相 比 ， 文 本 具有 较 稳 定 的 笔画 角度 变换 次 数 和 笔画 宽度 ， 

针对 这 两 个 特性 提出 笔画 外 边界 优 劣 角 变 换 次 数 和 增强 笔画 支持 像素 面积 比 两 种 特征 。 前 者 分 段 统计 笔画 外 轮廓 角度 

变换 次 数 ; 后 者 计算 笔画 宽度 稳定 区 域 在 笔画 总 面积 的 占 比 ， 用 来 分 别 反 映 笔画 角度 和 宽度 变化 稳定 特性 。 为 降低 文 

本 漏 检 率 ， 采 用 多 通道 最 大 稳定 极 值 区 域 (maximally stable extremal regions，MSER ) 检测 ， 合 并 所 有 候选 区 域 ， 提 取 
选区 域 的 笔画 特征 和 纹理 特征 , 利用 支持 向 量 机 完成 文本 和 非 文本 区 域 分 类 。 在 ICDAR2015 数据 库 上 ,算法 的 精确 

率 和 召回 率 分 别 达到 79.3% 和 72.8%， 并 在 一 定 程度 上 解决 了 光照 不 均 和 复杂 背景 的 问题 。 
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Text detection based on stroke angle conversion and stroke width features in natural scene 
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Abstract: In order to reduce the missing detection and misclassification of text caused by uneven illumination and background 
complexity in text detection of natural scenes, this paper presented a natural scene text detection method based on stroke angle 
transformation and width features. Compared to non-text, the text has a more stable performance of stroke outline angle 
conversion times and stroke width. Therefore, this paper proposed methods of extracting the number of transformations of the 
outer corner of the stroke and the enhancement of the pixel area ratio of the stroke support. In order to extract the characteristics 
of angular conversion, it used the method of outer contour segmentation to calculate the number of conversion times. In order 
to extract the strokes width characteristics, it calculated the proportion of the width stable area in the total strokes area. To reduce 
rate of the text missing detection, multi-channel MSER was used to detect text candidate area. Candidate areas in all channels 
were merged to extract the stroke and texture features. Support vector machines combined with features adopted, it used to 
classify text and non-text. The simulations show that the accuracy and recall rate of the algorithm were 79.3% and 72.8% in the 
ICDAR2015 database, respectively. Moreover, it solves the problem of uneven illumination and complex background to some 
extent. 
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本 检测 作为 提取 文本 信息 提取 的 基础 ， 具 有 极 大 的 研究 价值 。 

造成 自然 场景 文本 检测 难度 较 大 的 原因 有 以 下 三 点 : a) 不 

自然 场景 图 像 是 指 取材 于 真实 生活 场景 的 图 像 ， 蕴 涵 许 多 同 场 景 下 的 文本 多 是 不 可 控 的 ， 它 们 具有 不 同 的 颜色 、 字 体 、 

重要 的 文本 信息 ， 如 商品 包装 、 道 路 指示 牌 、 宣 传 标语 等 ， 这  ” 尺度、 方向 等 ，b) 自 然 场 景 下 的 背景 更 为 复杂 ， 会 出 现 与 文本 

些 文字 含有 明确 语义 信息 ， 更 好 地 表达 视觉 场景 。 据 统计 ， 人 特征 相似 的 物品 (如 栏杆 、 砖 块 等 ) 对 文本 检测 造成 干扰 ; c) 拍 

们 每 天 获取 的 信息 约 有 70% 来 自视 觉 观 察 和 感知 中， 故 从 图 片 ” ” 摄 过 程 导 致 的 图 像 模 糊 、 部 分 文本 被 遮挡 、 光 照 不 均等 问题 也 
中 提取 文本 信息 将 有 效 地 提高 信息 交流 的 速度 ， 而 自然 场景 文 。 会 为 文本 检测 增加 难度 。 
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按照 提取 文本 候选 区 
方法 主要 分 为 基于 滑动 窗 
或 (connected-component) 的 方法 两 类 P 49。 基于 滑动 窗口 
日 的 是 文本 区 


或 的 方式 ， 目 前 自然 场景 文本 检测 的 
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于 噪声 和 光照 稳定 ， 但 无 法 完整 地 检测 出 单个 文本 ， 过 多 的 滑 


动 窗 


口令 算法 的 计算 效率 较 低 ， 故 只 适用 于 


简单 的 场景 图 片 。 
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这 些 方法 虽然 对 于 光照 和 


(SWT) 


用 了 文本 具有 相同 的 颜 
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色 和 纹理 


连通 域 的 方法 ， 此 方法 利 
等 特性 系列 连通 
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特征 


区 域 。 常 用 的 文本 区 域 提取 方法 有 极 值 


区 域 
中 算法 和 笔画 变换 
录 声 较为 敏感 ， 但 


是 在 检测 速度 上 有 极 大 的 提升 ， 通 过 调整 检测 参数 基本 上 可 以 
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等 人 中选 取 空间 8 
色差 、 笔 画 宽度 差 组 成 特征 
后 验 概率 ， 消 除 概率 高 的 非 文 本 区 ， 最 后 使 用 
贝 叶 斯 分 类 器 对 文本 分 类 。 
杂 的 图 片 则 会 遗 
自然 场景 图 像 中 光照 和 复杂 背景 等 对 文本 检测 影响 较 


线 倾斜 角 
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大 的 因素 ， 本 文 提 出 一 种 基于 笔画 特征 
该 算法 的 流程 如 图 1 所 示 。 首 先 将 
像 进行 多 通道 候选 文本 区 域 提 取 并 去 重 ; 
像 提取 笔画 特征 
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将 滤波 后 的 RGB 
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该 算法 获得 较 高 的 准确 率 ， 但 是 对 
漏 大 量 的 文本 区 。 


和 多 种 特征 融合 的 自然 
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， 通 过 启发 式 规 则 滤 除 一 部 分 非 
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特征 结合 口 


采用 梯度 方向 直 


平均 局 部 二 值 模式 (mean local binary pattern, MLBP) 
持 向 量 机 〈support vector machine，SVM) 对 剩 下 的 


进行 分 类 ; 最 后 利 
得 到 文本 检测 
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1 文本 算法 流程 


1 ”多 通道 MSER 的 文本 候选 区 域 提取 和 去 重 
鉴于 传统 的 MSER 算法 对 于 光照 和 噪声 较为 敏感 ， 故 对 原 


始 自然 图 


个 颜色 通道 


像 使 用 


双边 滤波 进行 预 处 理 消除 噪声 影响 ， 再 提取 多 
的 MSER 作为 文本 候选 区 域 来 减 小 光照 不 均 的 干 


方 图 (histogram of oriented gradient, 


域 ， 且 


等 : 基于 笔画 角度 


合作 期 刊 


naX 
让 向 全 景 文本 检测 


Sh 
和 宽 


图 像 转换 至 基于 感知 的 光照 不 变 


儿 抽取 50 张 图 片 进行 测试 ， 
指标 进行 对 比 , 所 得 结果 如 表 1 所 示 。 


空间 (19。 PII 


a) 不 同 光照 条 件 下 ,任意 两 种 颜色 的 差 
基本 保持 不 变 ; b) 任意 两 种 颜色 的 欧 氏 距离 和 人 了 眼 视觉 
一 致 01。 
集中 随 


不 同 通道 组 合 的 效果 ， 从 
以 有 效 区 


表 1 不 同 通 道 组 合 MSER 检测 结果 

通道 有 效 区 域 比例 /% 文本 宪 六 率 /% 
gray 64.42 85.33 
R+G+B 65.23 89.65 
gray+R+G+B 64.94 90.14 
H'+S' 65.78 83.45 
R+G+B+H'+S' 65.57 93.29 

表 1 可 知 ， 选 择 R、G、B 通道 和 H'、S' 通 道 结合 可 获得 


有 效 


复 处 理 。 


Var 关 


式 (1) 中 ，A(R,) 表示 某 文本 候选 
素 个 数 ，R,G,B 分 别 表示 某 区 域 在 RGB 颜色 空 


通道 的 值 ; 式 (2) 中 ,std (x) 表示 求 向 量 x 的 标准 


最 大 的 文本 覆盖 率 ， 即 可 以 最 大 程度 地 检测 出 图 像 中 的 文本 
区 域 的 比例 较 高 。 

多 层 MSER 算法 检测 会 导致 颜色 稳定 区 域 被 多 次 检测 ， 
产生 大 量 重复 的 文本 候选 区 域 。 为 了 减少 无 效 计算 ， 进 行 去 


[x| 


会 


Ba 


此 处 选择 通过 面积 重 盔 率 W(R ;) 和 区 域 颜色 变化 率 


I 断 两 个 文本 候选 区 域 是 否 重合 ， 计 算 公 式 如 下 : 


y (RK, )) 至 


Var 三 有 


A(R)NACR,) 


A(R)UAR)) . 


orm(std(R,G, B)) (2) 
区 域 R, 中 MSER 的 像 
间 的 三 个 分 量 
差 , norm(y) 


表示 求 向 量 》 的 L2 范 数 。 若 面积 重 又 率 W(R )) 作 1 ， 则 去 除 


其 他 


区 域 , 只 保留 其 中 颜 


去 重复 效果 如 图 2 所 示 。 


图 2 


色 变换 率 Var 最 小 的 一 个 文本 候选 区 。 


去 重复 效果 


基于 笔画 特征 的 文本 检测 


提取 的 文本 候选 区 域 不 仅 尺寸 差异 较 大 ， 还 具 


=w/h, 


高 比 A, 


~ 


有 不 同 的 宽 


中 w,h 为 文本 候选 区 域外 接 和 矩形 的 宽 和 高 。 
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录用 稿 陈 ” 硕 ， 等 : 基于 笔画 角度 变换 和 宽度 特征 的 自 类 汤 景 文本 检测 

笔画 特征 是 基于 候选 区 域 均 为 单字 符 提取 的 ， 据 统计 ， 单 个 字 a) 两 个 跳 变 点 之 间 的 像素 个 数 超过 六 值 4 ,将 两 端 标记 什 
一 般 A, e[0.3,1.5] ， 宽 高 比较 大 或 较 小 的 区 域 大 多 数 是 非 文 。 跳 变 点 转换 为 候选 分 段 点 ， 如 图 5 〈a) 所 示 。 

区 ， 也 可 能 是 多 个 字符 连接 在 一 起 。 对 于 宽 高 比 不 属于 b) 连续 加 个 (m>& ) 标记 值 跳 变 点 (包括 候选 分 段 点 ) 


[0.3,1.5] 内 的 候选 区 域 ， 计 算 笔画 特征 时 需要 引入 权重 前 后 的 标记 值 均 为 标记 值 i 和 标记 值 i ， 则 这 若干 个 标记 值 跳 
变 点 之 间 的 标记 值 合并 为 一 个 段 向 量 , 记 为 段 向 量 i.j ， 其 间 的 


1 
=[max{4,, 一 }] ， 其 中 [e] 表示 四 舍 五 入 取 整 ， 物 理 意义 为 


A, 标记 值 也 转换 为 i.j (因为 在 此 情况 下 边缘 像素 1、3、5、7 不 
候选 区 域 可 分 割 成 宽 高 比 为 1 的 区 域 的 个 数 。 可 能 相 邻 ， 边 缘 像 素 2、4、6、8 不 可 能 相 邻 ， 故 i 和 j 必 为 一 
2.1 笔画 特征 计算 个 奇数 一 个 偶数 ， 在 此 令 ; 为 奇数 ，j 为 偶数 )， 如 图 5 (b) 所 
提取 的 文本 候选 区 域 中 不 仅 包 括 文本 区 ， 还 含有 大 量 的 非 ” 示 。 
文本 区 ， 如 何 准确 地 滤 除 非 文本 区 是 本 节 主 要 解决 的 问题 。 与 c) 重复 过 程 和 tb)， 直 到 不 能 合并 。 
非 文本 相 比 ， 文 本 具有 明显 的 笔画 特征 ， 如 清晰 的 笔画 轮廓 和 d) 两 段 ix (x 取 值 0-8) 之 间 的 间隔 像素 小 于 等 于 闵 值  ， 
稳定 的 笔画 宽度 等 ， 文 本 选取 以 下 两 个 特征 一 一 外 边界 优 劣 角 。”” 则 这 两 个 段 向 量 合 并 为 一 个 段 向 量 ix ,其 他 的 跳 变 点 直接 转换 


变换 次 数 和 增强 笔画 支持 像素 面积 比 ,作为 笔画 特征 用 于 分 类 。 为 候选 分 段 点 ， 如 图 5 (c〉 所 示 。 
2.1.1 外 边界 优 劣 角 变换 次 数 


26 个 英文 字母 均 由 有 限 数 目 笔画 构成 ,有 限 稳定 笔画 构成 GD DOD OOD OO GD OO GD GD 
二 A A AAA A A A 
有 限 外 边界 角 点 ,而 外 边界 角 点 分 为 优 角 和 劣 角 ,如 图 3 所 示 。 ~ ~ 一 


(a) 原 始 数据 排列 


@909090090909090 
A——~A、~、 A 
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(b) ij 组 合 后 数据 排列 


图 3 二 值 图 像 外 边缘 角 点 分 布 和 轮廓 

四 OVOYYVOYVYYY 
图 中 红色 的 点 为 优 角 , 绿色 的 点 为 劣 角 ( 见 电子 版 )， 外边 
缘 上 优 角 和 劣 角 的 变换 次 数 为 6。 
于 二 值 图 像 非 1 即 0， 其 边缘 梯度 较 大 ， 且 轮廓 不 够 平 
滑 ， 使 用 Harris 角 点 检测 会 误 检 出 多 余 角 点 且 对 于 接近 于 平角 图 5 中 ， 蓝 色 三 角 为 标记 值 跳 变 点 ， 红 色 三 角 为 候选 分 段 
的 角 点 不 够 敏感 ， 所 以 针对 于 二 值 图 像 ， 提 出 一 种 新 的 角 点 检 ”点 〈 见 电子 版 ) 此 时 标记 值 构成 的 一 维 整数 向 量变 成 了 由 段 向 
测 方法 。 量 构成 的 一 维 小 数 向 量 ， 段 向 量 的 数值 和 段 向 量 代 表 的 轮廓 方 
先 提取 二 值 图 像 的 边缘 像素 ， 将 边缘 像素 按照 四 领域 像素 ”向 如 图 6 所 示 。 
分 布 分 为 8 类 ， 依 次 编号 为 1 到 8， 分 类 如 图 4 所 示 。 


(0) 最 终 分 段 结果 
图 5 边缘 分 段 过 程 


1 1 0/ 0 
GAO 0 0 1 0 0 站 0 0 
0 0 0/ dl 
边缘 像素 1 边缘 像素 2 边缘 像素 3 边缘 像素 4 
0 0 0/ 1 
og 1 0 0 1 0 0 并 0 0 
1 1 0/ 0 6 段 向 量 数值 与 对 应 轮廓 方向 
边缘 像素 5 边缘 像素 6 边缘 像素 7 边缘 像素 8 
若 分 段 点 前 后 的 数值 按 顺 时 针 方 向 变化 保证 夹 角 a 小 于 
图 4 边缘 像素 分 类 图 


180”)， 则 此 分 段 点 对 应 优 角 ; 若 按 逆 时 针 方向 变化 ， 则 对 应 
图 4 中 0/1 表示 一 个 边缘 像素 类 型 中 这 两 个 位 置 的 像素 必 劣 角 ， 其 变换 次 数 记 为 上 。 记 当前 的 分 段 点 为 P， 分 段 点 之 前 
须 同 为 0 或 同 为 1。 以 外 轮廓 右上 角 的 边缘 像素 为 起 点 ， 洛 顺 
时 针 方 向 标记 每 个 边缘 像素 的 类 型 ， 标 记 值 构 成 一 维 向 量 。 接 
着 对 一 维 向 量 进 行 分 段 ， 令 每 个 分 段 点 对 应 外 边缘 上 的 角 点 。 如 下 : 
分 段 步骤 如 下 : 


的 标记 值 为 记 . 轧 ， 分 段 点 之 后 的 标记 值 为 六 小 亡 ，， 计 算 公式 
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A, 三 条 一 六 Ai Jpu = 

1,A; e[1,3]U[-5,-7] 或 A; e 0.4JnA, e[1,3]U[-5,-7] 
-LA; se[-1-31U[5.7] 或 As {0,4}N A, e[-1,-31U[5,7] 
个 ， A， 二 {04)n A; e {0,4} 


P= 


G3) 
式 (3) 中 人 ,Ai e{0,4} 这 种 情况 是 不 存在 的 ， 大 为 P 正 


负 值 跳 变 的 次 数 。 对 于 A #10.3,1.5] 的 候选 区 域 ，k = kK/N 。 


阔 值 wa 和 对 的 影响 如 表 2 所 示 。 
表 2 不 同 闵 值 对 k 的 影响 
Q ”文本 样本 k 的 最 大 值 ”>k 的 非 文 本 样本 比例 /% 
1 19 65.7 
2 2 15 66.2 
3 
1 14 67.8 
3 2 10 68.3 
3 9 63.7 
1 23 64.5 
4 人 2 16 65.6 
3 11 64.1 
表 2 可 知 ， 取 Q=3,B=2 时 ， 去 除 k>10 的 文本 候选 
区 域 效 果 最 好 。 
2.1.2 增强 笔画 支持 像素 面积 比 (ESSP) 
使 用 笔画 支持 像素 〈stroke support pixel, SSP) [7 法 计算 笔 
画 骨 架 , 定义 笔画 骨架 距离 边缘 像素 的 距离 为 d; = 5S, /2, 5S, 
为 笔画 宽度 ， 笔 画 骨 架 的 长 度 为 L， 对 于 理想 的 笔画 ， 笔 画 宽 


度 


A 


个 像素 点 的 值 是 它 离 其 最 近 背 景点 的 距离 ， 
离 值 大 于 等 于 其 八 邻 域 的 像素 点 作为 笔画 骨架 像素 。 
下 ， 会 出 现 笔画 
况 ， 人 简单 
一 个 权重 系数 w, ， 


基本 保持 稳定 ， 如 图 7 所 示 ， 笔 画 支 持 像素 的 个 数 


=5, xL-= 224, 基本 上 等 于 笔画 面积 。 


三 


图 7 笔画 示意 图 


画 骨 架 需 离 变换 图 ， 即 二 值 图 像 上 每 一 
选取 当前 像素 的 距 
一 般 状 况 
骨架 不 连续 、 一 行 有 多 个 笔画 骨架 像素 的 等 情 
计算 会 造成 结果 不 准确 。 因 此 ， 为 每 个 骨架 像素 引入 
将 其 归 一 化 到 单一 的 笔画 长 度 ， 新 的 支持 像 


计算 笔画 骨架 需要 先 计算 距 


素 个 数 计算 公式 为 
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人 2 (4) 

w, =3/N, (5) 

式 (5) 中 人 为 3x3 邻 域内 骨架 像素 的 个 数 ， 笔 画面 积 比 
6= A,/A， 其 中 有 4 为 二 值 区 域 面积 ， 计 算 过程 如 图 8 所 示 。 


> 
人 =2x9x3x17=306 
六 一 = 0.927 
， 330 
和 8 笔画 面积 比 计算 过 程 
即使 加 入 权重 系数 ， 对 于 笔画 宽度 发 生变 化 的 文本 ， 


较 小 ， 产 生 这 


笔画 宽度 


5 值 


一 影响 的 根本 原因 是 缺失 了 太 多 的 骨架 像素 。 当 
小 到 大 变化 或 多 个 笔画 相连 时 ， 上 骨架 像素 的 距离 值 


不 再 是 局 部 最 大 值 ， 因 此 无 法 被 检测 出 ， 如 图 9 (a)〉 所 示 。 


为 解决 这 一 问题 ， 
support pixel, ESSP ) 的 方法 。 对 于 A, gg[0.3,1.5] 的 候选 
首先 对 候选 区 域 的 较 大 边缘 进行 缩放 ， 保 证 候选 区 域 


提出 增强 笔画 支持 像素 enhance stroke 
区 域 ， 
能 被 平均 


分 割 , 缩放 率 ratio = NN /max{A,,1/ A,} ,再 将 候选 区 域 沿 较 大 


边缘 分 割 成 六 份子 候选 区 域 ,接着 对 子 候选 区 域 进行 上 述 
得 到 各 个 子 候选 区 域 的 骨架 像素 ， 如 图 9 (b) 所 示 。 


<=0.599 
(b) 


£=0.571 


&=0.392 


架 像 素 (a) 分 割 后 检测 骨架 像素 〈b) 


图 9 SSP 检测 骨 


ESSP 方法 的 计算 过 程 如 下 : 


1 n 
a) 计算 明 架 像素 距离 的 平均 值 4 = 二 4 。 


术 计 算 ， 


b) 选择 笔画 骨架 上 像素 距离 接近 于 d 的 端点 像素 (包括 


3x3 邻 域内 只 有 一 个 骨架 像素 的 点 ) 作为 原点 ， 寻 找 ] 
近 的 两 个 骨架 像素 ， 用 直线 分 别 连接 原点 和 两 个 像素 。 

c) 若 直线 上 存在 背 
个 原点 ， 重 复 步 又 b); 
离 值 之 差 小 于 0.3d , 则 选取 直线 上 像素 3x3 领 
最 大 值 为 骨架 或 位 于 直线 上 则 选 次 大 值 ) 加 入 骨架 像素 ， 


景 像 素 ? 则 


因原 点 最 


放弃 此 条 直线 ， 跳 转 至 下 一 
若 不 存在 背景 像素 ， 且 两 个 像素 点 的 距 
或 的 最 大 值 ( 若 


否则 
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放弃 此 条 直线 ， 重 复 步 又 b)。 


j 公 式 公 =22 wd; 和 


ieS 


面积 比 。 结 果 有 较 大 的 改善 ， 计 算 过 程 如 


d) 找 回 所 有 骨架 像素 后 ， 使 / 


6E=A4,/4 计 算 像 素 
图 10 所 示 。 


9.43 


E |12. 04| 11. 4 10. 81|10. 29| 9. 
l 2. 21 11. 66|11. 18|10. 
i 


. 


图 10 ESSP 计算 过 程 


任意 选取 各 取 500 张 文 本 样本 图 和 非 文本 样本 图 进行 算法 
检测 ，SSP、ESSP 的 对 比 结果 如 图 11 所 示 。 


0.35 


本 时 ESsP 文 本 
国 枯 ESSP 非 文本 
国 央 SsP 文 本 
0.25 | 加 ssP 非 文本 


0.1r 
0.05 上 
间 
0-0.1 0.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.9 0.9-1 


笔画 面积 比 
图 11 SSP 和 ESSP 的 对 比 结 


0.3 上 


比例 〈% ) 
局 
加 


图 11 中 0.1-0.2 表示 笔画 面积 比 位 于 区 间 (0.1,0.2] ， 其 他 
数值 以 此 类 推 。 由 图 可 见 ， 对 于 文本 样本 ，ESSP 有 效 地 增 大 的 
笔画 面积 比 ;对 于 非 文本 样本 也 有 所 增强 , 但 增强 的 幅度 不 大 。 
使 用 ESSP 算法 增 大 了 文本 和 非 文本 的 差距 。 

2.2 文本 检测 


月 刊 


ny 人 人 信 其 寞 检测 


Gh 
TR 


陈 硕 ， 等: 基于 笔画 角度 变 


UD 


字符 空隙 距离 ， 中 心 连 线 倾斜 角度 03、 笔 画 宽度 作为 文 
域 聚 合 的 限制 条 件 。 将 颜色 距离 和 笔画 宽度 相近 的 文本 区 
或 合并 为 一 个 组 ， 统计 组 中 各 文本 区 域 之 间 的 字符 空隙 距 
离 和 中 心 连 线 倾斜 角度 ， 并 根据 相似 度 合并 文本 区 域 形 成 文本 
行 。 


吉 果 分 析 


3.1 实验 数据 库 和 评价 指标 
选择 公开 数据 库 ICDAR2015 数据 集 对 算法 进行 检测 。 
ICDAR2015 数据 库 包含 不 同 颜 色 、 字 体 、 尺 寸 的 文本 图 像 ， 其 
中 部 分 图 像 具 有 光照 不 均 、 对 比 度 低 、 模 糊 、 遮 挡 等 增 问题 ， 
其 中 训练 集 229 张 图 片 ， 测 试 集 233 张 图 片 。 
本 文采 取 ICDAR 提供 评价 指标 对 本 文 提 出 方法 进行 评估 ， 
评价 指标 由 精确 率 P (precision Rate)、 召 回 率 R (recall Rate) 


3 ”实验 结 


和 综合 评价 值 F 值 组 成 史 。 其 定义 如 下 : 
m(r; R) = max{m, (Fr |r'eR} (6) 
Pm,7) 
P 一 neE (7) 
| 五 | 
Sm,7) 
页 三 DZ (8) 
| 了 | 


其 中 : 图 片 中 真实 文本 区 域 的 外 接 矩 形 集 


合 为 T; 算法 输出 的 


文本 区 域外 接 和 矩形 集合 为 E; mw e[0,1 为 面积 重合 


式 如 式 (1) 所 示 , 不 同 的 是 A(R,) 表示 文本 区 外 接 矩 形 的 面积 。 
将 精确 率 P 和 召回 率 R 结合 得 到 综合 评价 指标 FE， 一般 
0Q =0.5， 计 算 公式 如 下 : 


1 
a/P+(d-a)/R 


(9) 


3.2 结果 分 析 
ICDAR 公开 数据 库 是 文本 检测 常 


用 数据 集 , 部 分 结果 展示 


文本 和 非 文本 不 仅 在 笔画 特征 上 有 差别 ， 同 时 文本 具有 更 
为 规律 的 轮廓 和 稳定 的 边缘 及 纹理 特征 ,本 文选 用 HOG 特征 、 
MLBP 特征 和 SVM， 滤 除 剩 下 的 非 文 本 区 。HOG 通过 计算 和 
统计 图 像 局 部 区 域 的 梯度 方向 直方 图 来 构成 特征 向 量 ， 描 述 图 
像 的 梯度 方向 和 边缘 信息 。MLBP02 是 对 局 部 二 值 模 式 〈local 
binary pattern, LBP ) 的 一 种 改进 , 提升 了 算法 对 噪点 的 鲁 棒 性 。 

上 述 步 又 去 除了 大 多 数 复杂 的 背景 元 素 ， 得 到 了 相对 完整 
的 单个 字符 区 域 。 接 下 来 利用 广度 优先 搜索 (breadth first search， 
BFS) 的 思想 ， 对 这 些 单个 字符 区 域 进行 聚合 形成 文本 行 ， 并 以 
此 作为 本 文 自然 场景 文本 定位 的 最 终结 果 。BFS 是 连通 图 的 
种 遍历 方法 ,从 一 个 顶点 mw 开始 依次 访问 其 邻接 点 mw， 
若 特征 相似 , 则 合并 成 一 个 一 个 顶点 , 接着 访问 mm …w 的 邻 
接点 ， 直 到 遍历 图 中 所 有 顶点 。 本 文选 取 的 特征 有 CIE94 颜色 


如 图 12 所 示 。 


图 12 部 分 结果 展示 


从 图 12 可 以 看 出 , 在 本 文 方法 能 够 适应 不 同 背景 、 不 同 字 


噪声 ， 如 树叶 、 箭 头 、 窗 户 等 干扰 ， 准 确定 位 出 文本 位 置 ， 能 
得 到 较 好 的 检测 结果 


为 进一步 验证 算法 的 有 效 性 ， 将 算法 的 精确 率 P、 召 回 率 
R 和 综合 评价 指标 F 与 国内 外 先进 算法 进行 对 比 ， 对 比 结果 如 
表 3 所 示 。 
表 3 相关 算法 性 能 比较 
算法 RI% P/% F/% 
Shi’s Method [9 62.9 84.7 72.2 
Bais’s Method [9] 68.2 78.9 73.2 
Neumann’s Method! 64.8 87.5 74.5 
Yi’s Method ™ 66.5 88.5 75.9 
本 文 算法 72.8 79.3 75.9 
从 表 3 可 知 ， 本 文 算法 在 ICDAR2015 数据 集 上 测试 ， 虽 


然 精 确 度 P 较 低 ， 仅 超过 Bais 的 算法 ， 但 是 下 值 与 Yi 的 方法 
相同 ， 高 于 其 他 算法 ， 有 最 高 的 召回 率 R。 为 了 尽 可 能 地 
保存 更 为 完全 的 真正 文本 区 域 ， 即 提高 召回 率 ， 本 文 算法 提取 
候选 区 域 时 采用 多 通道 MSER 算法 , 且 所 提取 的 笔画 特征 也 是 
针对 文本 和 非 文本 的 本 质 区 别 ， 剔 除了 大 量 非 文本 区 ， 最 大 限 
度 地 筛选 出 真实 文本 ， 但 同时 也 保留 了 有 具有 笔画 特征 的 人 造 医 
形 ， 进 一 步 使 用 边缘 特征 和 纹理 特征 区 分 文本 和 非 文 本 ， 由 此 
导致 部 分 非 文本 被 误 判 为 文本 ， 使 精确 度 偏 低 。 综 合 几 个 评估 
标准 ， 本 文 算法 具有 较 好 的 性 能 。 


叫 | 


4 ”结束 语 


Re 种 基于 笔画 特征 的 自然 场景 文本 检测 方法 。 对 
道 MSER 算法 进行 去 重 处 理 , 既 克 服 了 传统 MSER 算法 对 
的 敏感 性 ， 又 抑制 了 候选 区 域 数量 的 暴 增 。 提 取 候 选区 域 


画 特 征 即 包含 了 笔画 的 轮廓 特征 和 骨架 特征 ， 可 以 从 本 质 
文本 和 非 文本 的 区 别 ， 综 合 边缘 特征 和 纹理 特征 ， 能 较 好 
地 检测 自然 场景 中 的 文本 区 域 。 但 是 对 于 对 比 度 较 低 、 模 糊 度 
较 高 、 文 本 被 栏杆 遮挡 的 自然 场景 图 片 ， 本 文 算法 不 能 准确 定 
步 研究 ， 提 升 算法 性 能 。 
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